检索结果

期刊

出版年

关键词

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. 基于注意力机制和金字塔融合的RGB-D室内场景语义分割

余娜, 刘彦, 魏雄炬, 万源

《计算机应用》唯一官方网站 2022, 42 (3): 844-853. DOI: 10.11772/j.issn.1001-9081.2021030392

摘要（411）

HTML （18）

PDF （1447KB）（166）

针对现有RGB-D室内场景语义分割不能有效融合多模态特征的问题，提出一种基于注意力机制和金字塔融合的RGB-D室内场景图像语义分割网络模型APFNet，并为其设计了两个新模块：注意力机制融合模块与金字塔融合模块。其中，注意力机制融合模块分别提取RGB特征和Depth特征的注意力分配权重，充分利用两种特征的互补性，使网络聚焦于信息含量更高的多模态特征域；金字塔融合模块利用四种不同金字塔尺度特征，融合局部与全局信息，提取场景语境，提升物体边缘和小尺度物体的分割精度。将这两个融合模块整合到一个包含三个分支的“编码器-解码器”网络中，实现“端到端”输出。该模型在SUN RGB-D和NYU Depth v2数据集上与多层残差特征融合网络（RDF-152）、注意力互补网络（ACNet）、空间信息引导卷积网络（SGNet）等先进方法进行实验对比。实验结果表明，与最好的表现方法RDF-152对比，APFNet的编码器网络层数从152层降低到50层的情况下，像素精度（PA）、平均像素精度（MPA）、平均交并比（MIoU）分别提升了0.4、1.1、3.2个百分点，并对枕头、照片等小尺度物体和木板、天花板等大尺度物体的语义分割质量分别有0.9~4.5和12.4~18个百分点的提升；故该模型在处理室内场景语义分割问题上具有一定的优势。

图表 | 参考文献 | 相关文章 | 多维度评价